量化将浮点数(通常为32位浮点数)转换为较低位数(如8位整数),以减少模型的存储空间和计算量。在INT8量化中,浮点数被映射到0到255之间的8位整数。_大模型awq...
浏览 76 次 标签: 【大模型量化】AWQ 量化和 INT8 量化的区别是什么?